맨위로가기

일반화 선형 모형

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

일반화 선형 모형(GLM)은 선형 회귀를 일반화한 통계적 모형으로, 반응 변수의 기댓값을 예측 변수의 선형 결합으로 예측한다. GLM은 지수족 분포에 속하는 확률 분포, 선형 예측자, 연결 함수의 세 가지 주요 요소로 구성된다. 다양한 형태의 비선형 관계를 모형화할 수 있으며, 최대 우도 추정, 준우도 추정, 베이즈 추정 등 다양한 방법을 통해 모형의 모수를 추정한다. GLM은 선형 회귀, 로지스틱 회귀, 푸아송 회귀 등 다양한 모형을 포괄하며, 상관된 데이터 및 가법 모형으로 확장될 수 있다.

더 읽어볼만한 페이지

  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 사분위수
    사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
일반화 선형 모형
개요
이름일반화 선형 모형
원어Generalized linear model
약자GLM
분야통계학
제안자존 네더와 로버트 웨더번
발표 연도1972년
설명
정의선형 회귀의 일반화된 형태이며, 종속 변수가 정규 분포를 따르지 않는 경우에도 적용 가능한 통계 모형임.
특징종속 변수의 분포에 대한 유연성 제공
연결 함수를 사용하여 예측 변수와 종속 변수 간의 관계 모델링
다양한 종류의 데이터 (이항 데이터, 카운트 데이터 등) 분석 가능
구성 요소
확률 분포종속 변수의 확률 분포 (예: 정규 분포, 이항 분포, 푸아송 분포)
선형 예측자독립 변수들의 선형 결합
연결 함수선형 예측자와 종속 변수의 평균 간의 관계를 정의하는 함수
활용
사용 예시의료 분야: 환자의 생존 여부 예측, 질병 발생률 분석
금융 분야: 신용 평가, 보험금 지급 예측
사회 과학 분야: 설문 조사 분석, 사회 현상 모델링
관련 항목
관련 통계 모델선형 회귀
일반 선형 모델
비선형 회귀
지수족

2. 역사적 배경

일반화 선형 모형은 선형 회귀의 일반화이다.

3. 이론적 배경

일반화 선형 모형(GLM)은 선형 회귀를 일반화한 모형이다. 일반 선형 회귀는 반응 변수의 기댓값을 예측 변수들의 선형 결합으로 예측한다. 이는 예측 변수의 변화가 반응 변수의 일정한 변화를 초래한다는 것을 의미한다. 그러나 이러한 가정은 반응 변수가 항상 양수이거나, 예/아니오 선택의 확률(베르누이 변수)과 같이 특정 범위로 제한되는 경우에는 부적절하다.

일반화 선형 모형은 이러한 문제를 해결하기 위해 반응 변수가 정규 분포뿐만 아니라 다양한 확률 분포(지수족)를 따를 수 있도록 허용하고, 반응 변수의 임의의 함수(''연결 함수'')가 예측 변수에 따라 선형적으로 변동하도록 허용한다. 예를 들어, 해변 방문객 수 예측에는 푸아송 분포와 로그 연결 함수를, 해변 방문 가능성 예측에는 베르누이 분포 또는 이항 분포와 로그 오즈(또는 ''로짓'') 연결 함수를 사용할 수 있다.

일반화 선형 모형(GLM)에서 종속 변수 '''Y'''의 각 결과는 지수족에 속하는 특정 확률 분포에서 생성된다고 가정한다. 분포의 조건부 평균 '''μ'''는 독립 변수 '''X'''에 따라 다음과 같이 달라진다.

:\operatorname{E}(\mathbf{Y}\mid\mathbf{X}) = \boldsymbol{\mu} = g^{-1}(\mathbf{X}\boldsymbol{\beta}),

여기서 E('''Y''' | '''X''')는 '''X'''에 조건부된 '''Y'''의 기대값이고, '''Xβ'''는 알려지지 않은 매개변수 '''''β'''''의 선형 결합인 ''선형 예측 변수''이다. ''g''는 연결 함수이다.

이 프레임워크에서 분산은 일반적으로 평균의 함수 '''V'''이다.

: \operatorname{Var}(\mathbf{Y}\mid\mathbf{X}) = \operatorname{V}(g^{-1}(\mathbf{X}\boldsymbol{\beta})).

'''V'''가 지수족 분포를 따르는 것이 편리하지만, 분산이 예측 값의 함수일 수도 있다.

알 수 없는 매개변수 '''''β'''''는 일반적으로 최대 우도 추정, 최대 준우도 추정, 또는 베이즈 기법으로 추정된다.

일반화 선형 모형은 다음 세 가지 요소로 구성된다.[2]

# 지수족의 확률 분포

# 선형 예측자 ${\displaystyle \eta = \mathbf {x} ^{T}{\boldsymbol {\beta }}}$

# ${\displaystyle g(\theta )=\eta }$를 만족하는 연결 함수 ${\displaystyle g}$

3. 1. 지수족 분포

일반화 선형 모형(GLM)에서 종속 변수 '''Y'''의 각 결과는 지수족에 속하는 특정 확률 분포에서 생성된다고 가정하며, 여기에는 정규 분포, 이항 분포, 푸아송 분포, 감마 분포 등 다양한 확률 분포가 포함된다.[2]

이러한 지수족 분포의 확률 밀도 함수(또는 이산 분포의 경우 확률 질량 함수)는 다음과 같은 형태로 표현될 수 있다.

: f_Y(\mathbf{y} \mid \boldsymbol\theta, \tau) = h(\mathbf{y},\tau) \exp \left(\frac{\mathbf{b}(\boldsymbol\theta)^{\rm T}\mathbf{T}(\mathbf{y}) - A(\boldsymbol\theta)} {d(\tau)} \right). \,\!

여기서 ''분산 모수'' \tau는 일반적으로 알려져 있으며, 분포의 분산과 관련이 있다. 함수 h(\mathbf{y},\tau), \mathbf{b}(\boldsymbol\theta), \mathbf{T}(\mathbf{y}), A(\boldsymbol\theta), 및 d(\tau)는 알려진 함수이다.

만약 \mathbf{b}(\boldsymbol\theta)가 항등 함수라면, 이 분포는 표준 형식(또는 ''자연 형식'')에 속한다고 한다.

\boldsymbol\theta는 분포의 평균과 관련이 있으며, \mathbf{T}(\mathbf{y})\mathbf{b}(\boldsymbol\theta)가 항등 함수인 경우, \boldsymbol\theta를 ''표준 모수''(또는 ''자연 모수'')라고 부르며, 다음을 통해 평균과 관련된다.

: \boldsymbol\mu = \operatorname{E}(\mathbf{y}) = \nabla_{\boldsymbol{\theta}} A(\boldsymbol\theta). \,\!

이 시나리오에서, 분포의 분산은 다음과 같이 나타낼 수 있다.[2]

:\operatorname{Var}(\mathbf{y}) = \nabla^2_{\boldsymbol{\theta}} A(\boldsymbol\theta)d(\tau). \,\!

확률 변수 Y지수족에 속하고, 확률 밀도 함수 f(y)가 정준(canonical) 모수 \theta, 분산(dispersion) 모수 \phi와 스칼라 함수 a(\theta), c(y,\,\theta)를 사용하여 다음과 같은 지수형으로 나타낼 수 있다고 가정한다.

:f(y;\theta, \phi)=\exp \left\{ \frac{y\,\theta-a(\theta)}{\phi}+c(y,\phi) \right\}

이때, 다음 등식이 성립한다.

:E\left( \frac{\partial L}{\partial \theta} \right) = 0,\; E\left( \frac{\partial^2 L}{\partial \theta^2} \right) = - E\left( \frac{\partial L}{\partial \theta} \right)^2

위 등식을 사용하여 계산하면, 확률 변수 Y평균a'(\theta), 분산\phi\, a''(\theta)임을 알 수 있다.

다음은 지수족에 속하는 주요 확률 분포이다.

분포설명
정규 분포기댓값 \sigma^2을 사용하여 a(\theta)=\theta^2/2, \phi = \sigma^2, c(y,\,\phi) = -\left( y^2/\sigma^2 + \log{2\pi\sigma^2} \right)/2로 나타낼 때, f(y;\theta) = \frac{1}{\sqrt{2\pi} \sigma} \exp{\left(- \frac{(y-\theta)^2}{2\sigma^2} \right)}는 평균 \theta, 분산 \sigma^2정규 분포에 해당한다.
베르누이 분포p = e^\theta / (1+e^\theta)를 사용하여 a(\theta) = - \log{(1-p)}, \phi = 1, c = 0로 표현될 때, f(y;\theta) = p^y (1-p)^{1-y}는 발생 확률 p베르누이 분포에 해당한다.
푸아송 분포
이항 분포
가우스 분포


3. 2. 선형 예측자

선형 예측자( Linear predictor영어)는 일반화 선형 모형에서 독립 변수들의 정보를 통합하는 양이다. 기호 ''η'' (에타)는 선형 예측자를 나타내며, 연결 함수를 통해 데이터의 기댓값과 관련이 있다.

''η''는 미지의 모수 '''''β'''''의 선형 결합으로 표현된다. 선형 결합의 계수는 독립 변수 행렬 '''X'''로 표시된다. 따라서 ''η''는 다음과 같이 표현할 수 있다.

: \eta = \mathbf{X}\boldsymbol{\beta}.\,

3. 3. 연결 함수

연결 함수는 선형 예측자 ${\displaystyle \eta =\mathbf {X} {\boldsymbol {\beta }}}$와 종속 변수의 기댓값 ${\displaystyle \operatorname {E} (\mathbf {Y} \mid \mathbf {X} )=\mu }$ 사이의 관계를 설명하는 함수이다. 즉,

: ${\displaystyle \operatorname {E} (\mathbf {Y} \mid \mathbf {X} )=\mu =g^{-1}(\eta )}$

여기서 ${\displaystyle g}$는 연결 함수이다.

일반적으로 사용되는 연결 함수가 많으며, 그 선택은 여러 가지 고려 사항에 의해 결정된다. 응답의 밀도 함수의 지수로부터 파생되는 잘 정의된 '정규' 연결 함수가 항상 존재한다. 그러나 어떤 경우에는 연결 함수의 함수의 정의역을 분포 함수의 평균의 함수의 치역과 일치시키거나, 알고리즘 목적으로 비정규 링크 함수, 예를 들어 베이즈 프로빗 회귀를 사용하는 것이 합리적이다.

정규 매개변수 ${\displaystyle \theta }$를 갖는 분포 함수를 사용할 때, 정규 연결 함수는 ${\displaystyle \theta }$를 ${\displaystyle \mu }$로 표현하는 함수, 즉 ${\displaystyle \theta =b(\mu )}$이다. 가장 일반적인 분포의 경우, 평균 ${\displaystyle \mu }$는 분포의 표준 형태에서 매개변수 중 하나이며, 그런 다음 ${\displaystyle b(\mu )}$는 밀도 함수를 정규 형태로 매핑하는 위에서 정의된 함수이다. 정규 연결 함수를 사용할 때, ${\displaystyle b(\mu )=\theta =\mathbf {X} {\boldsymbol {\beta }}}$이며, 이를 통해 ${\displaystyle \mathbf {X} ^{\rm {T}}\mathbf {Y} }$가 ${\displaystyle {\boldsymbol {\beta }}}$에 대한 충분 통계량이 될 수 있다.

다음은 일반적으로 사용되는 여러 지수족 분포와 그에 일반적으로 사용되는 데이터, 정규 연결 함수 및 그 역수(여기서는 평균 함수라고도 함)의 표이다.

일반적인 사용과 정규 연결 함수를 갖는 분포
분포분포의 지원일반적인 용도링크 이름링크 함수, ${\displaystyle \mathbf {X} {\boldsymbol {\beta }}=g(\mu )}$평균 함수
정규실수: ${\displaystyle (-\infty ,+\infty )}$선형 응답 데이터항등${\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\mu }$${\displaystyle \mu =\mathbf {X} {\boldsymbol {\beta }}}$
지수실수: ${\displaystyle (0,+\infty )}$지수 응답 데이터, 척도 매개변수음의 역수${\displaystyle \mathbf {X} {\boldsymbol {\beta }}=-\mu ^{-1}}$${\displaystyle \mu =-(\mathbf {X} {\boldsymbol {\beta }})^{-1}}$
감마
역 가우시안실수: ${\displaystyle (0,+\infty )}$역 제곱${\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\mu ^{-2}}$${\displaystyle \mu =(\mathbf {X} {\boldsymbol {\beta }})^{-1/2}}$
푸아송정수: ${\displaystyle 0,1,2,\ldots }$고정된 시간/공간에서 발생 횟수로그${\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\ln(\mu )}$${\displaystyle \mu =\exp(\mathbf {X} {\boldsymbol {\beta }})}$
베르누이정수: ${\displaystyle \{0,1\}}$단일 예/아니요 발생의 결과로짓${\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\ln \left({\frac {\mu }{1-\mu }}\right)}$${\displaystyle \mu ={\frac {\exp(\mathbf {X} {\boldsymbol {\beta }})}{1+\exp(\mathbf {X} {\boldsymbol {\beta }})}}={\frac {1}{1+\exp(-\mathbf {X} {\boldsymbol {\beta }})}}}$
이항정수: ${\displaystyle 0,1,\ldots ,N}$N개의 예/아니요 발생 중 "예" 발생 수${\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\ln \left({\frac {\mu }{n-\mu }}\right)}$
범주형정수: ${\displaystyle [0,K)}$단일 K-way 발생의 결과${\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\ln \left({\frac {\mu }{1-\mu }}\right)}$
K-벡터의 정수: ${\displaystyle [0,1]}$, 여기서 벡터의 정확히 하나의 요소가 값 1을 가짐
다항K-벡터의 정수: ${\displaystyle [0,N]}$N개의 총 K-way 발생 중 다른 유형(1, ..., K)의 발생 횟수



일반적인 연결 함수로는 로짓, 프로빗, 로그, 역수 등이 있다. 정준 연결 함수는 ${\displaystyle \theta =b(\mu )}$로 표현되는 함수이다.

4. 모형 구성 요소

일반화 선형 모형(GLM)은 다음 세 가지 주요 요소로 구성된다.[2]

# 지수족에 속하는 확률 분포.

# 선형 예측자: linear predictor영어 \eta = \mathbf{X}\boldsymbol{\beta}.

# 연결 함수: link function영어 g. 이 함수는 \operatorname{E}(Y \mid X) = \mu = g^{-1}(\eta)를 만족한다. 즉, 연결 함수는 반응 변수의 기댓값과 선형 예측자를 연결한다.

일반적으로 사용되는 여러 지수족 분포와 그에 따른 데이터, 정규 연결 함수 및 그 역함수(평균 함수)는 아래 표와 같다.

일반적인 사용과 정규 연결 함수를 갖는 분포
분포분포의 지원일반적인 용도연결 함수 이름연결 함수, \mathbf{X}\boldsymbol{\beta}=g(\mu)\,\!평균 함수
정규실수: (-\infty,+\infty)선형 반응 데이터항등\mathbf{X}\boldsymbol{\beta}=\mu\,\!\mu=\mathbf{X}\boldsymbol{\beta}\,\!
지수실수: (0,+\infty)지수 반응 데이터, 척도 매개변수음의 역수\mathbf{X}\boldsymbol{\beta}=-\mu^{-1}\,\!\mu=-(\mathbf{X}\boldsymbol{\beta})^{-1}\,\!
감마
역 가우시안실수: (0, +\infty)역 제곱\mathbf{X}\boldsymbol{\beta}=\mu^{-2}\,\!\mu=(\mathbf{X}\boldsymbol{\beta})^{-1/2}\,\!
푸아송정수: 0,1,2,\ldots고정된 시간/공간에서 발생 횟수로그\mathbf{X}\boldsymbol{\beta} = \ln(\mu) \,\!\mu=\exp (\mathbf{X}\boldsymbol{\beta}) \,\!
베르누이정수: \{0,1\}단일 예/아니요 발생의 결과로짓\mathbf{X}\boldsymbol{\beta}=\ln \left(\frac \mu {1-\mu}\right) \,\!\mu=\frac{\exp(\mathbf{X}\boldsymbol{\beta})}{1 + \exp(\mathbf{X}\boldsymbol{\beta})} = \frac 1 {1 + \exp(-\mathbf{X} \boldsymbol{\beta})} \,\!
이항정수: 0,1,\ldots,NN개의 예/아니요 발생 중 "예" 발생 수\mathbf{X}\boldsymbol{\beta}=\ln \left(\frac \mu {n-\mu}\right) \,\!
범주형정수: [0,K)단일 K-way 발생의 결과\mathbf{X}\boldsymbol{\beta}=\ln \left(\frac \mu {1-\mu}\right) \,\!
K-벡터의 정수: [0,1], 여기서 벡터의 정확히 하나의 요소가 값 1을 가짐
다항K-벡터의 정수: [0,N]N개의 총 K-way 발생 중 다른 유형(1, ..., K)의 발생 횟수


5. 주요 특징

일반화 선형 모형(GLM)은 선형 회귀를 일반화한 것이다. 선형 모형에서 하나 이상의 변수를 대상으로 일반화된 모형을 구축한다.

일반 선형 회귀는 반응 변수(확률 변수)의 기댓값을 예측 변수의 선형 결합으로 예측한다. 이는 예측 변수의 변화가 반응 변수의 일정한 변화를 초래한다는 것을 의미한다. (선형 반응 모델) 하지만 이러한 가정은 반응 변수가 항상 양수이거나, 예/아니오 선택(베르누이 변수)의 확률을 예측하는 경우에는 부적절하다.

예를 들어, 해변 방문객 수를 예측하는 경우, 온도 감소가 방문객 수를 일정하게 감소시키는 것이 아니라, 방문객 증가의 일정한 ''비율''을 예측하는 것이 더 현실적이다. (지수 반응 모델 또는 로그 선형 모델) 또한, 사람이 해변에 갈 확률을 예측하는 경우, 확률 값 자체를 두 배로 하는 것이 아니라, ''오즈''가 두 배가 되는 로지스틱 모델이 더 적합하다.

일반화 선형 모형은 반응 변수가 정규 분포가 아닌 임의의 분포를 가질 수 있고, 반응 변수의 임의의 함수(연결 함수)가 예측 변수에 따라 선형적으로 변동하는 것을 허용한다. 예를 들어, 해변 방문객 수 예측에는 푸아송 분포와 로그 연결을, 해변 방문 가능성 예측에는 베르누이 분포 또는 이항 분포와 로그 오즈(로짓) 연결 함수를 사용한다.

일반화 선형 모형에서 종속 변수 '''Y'''의 각 결과는 지수족에 속하는 특정 확률 분포에서 생성된다고 가정한다. 이 분포의 조건부 평균 '''''μ'''''는 독립 변수 '''X'''에 따라 다음과 같이 달라진다.

:\operatorname{E}(\mathbf{Y}\mid\mathbf{X}) = \boldsymbol{\mu} = g^{-1}(\mathbf{X}\boldsymbol{\beta}),

여기서 E('''Y''' | '''X''')는 '''X'''에 조건부된 '''Y'''의 기대값이고, '''X''β'''''는 알려지지 않은 매개변수 '''''β'''''의 선형 결합인 ''선형 예측 변수''이다. ''g''는 연결 함수이다.

이 프레임워크에서 분산은 일반적으로 평균의 함수, '''V'''이다.

: \operatorname{Var}(\mathbf{Y}\mid\mathbf{X}) = \operatorname{V}(g^{-1}(\mathbf{X}\boldsymbol{\beta})).

알 수 없는 매개변수 '''''β'''''는 일반적으로 최대 우도 추정, 최대 준우도 추정, 또는 베이즈 기법으로 추정된다.

확률 변수 Y지수족에 속한다고 가정한다. 즉, 확률 밀도 함수 f(y)가 정준(canonical) 모수 \theta를 사용하여 지수형으로 표현될 수 있다고 가정한다.

일반화 선형 모형은 다음 세 가지 요소로 구성된다.

: 1. 지수족의 확률 분포

: 2. 선형 예측자 \eta = \mathbf{x}^{T} \boldsymbol{\beta}

: 3. 링크 함수 g (g(\theta) = \eta를 만족)

5. 1. 분산 함수

확률 변수 Y분산\phi\, a''(\theta)이다. 분산 함수는 종속 변수의 분산과 기댓값 사이의 관계를 설명하는 함수이다.

6. 모형 적합

일반화 선형 모형의 모수는 일반적으로 최대 우도 추정, 최대 준우도 추정, 또는 베이즈 기법으로 추정된다.[3]

6. 1. 최대 우도 추정

알 수 없는 매개변수 '''''β'''''는 일반적으로 최대 우도 추정, 최대 준우도 추정, 또는 베이즈 기법으로 추정된다.[3] 최대 우도 추정은 반복 가중 최소 제곱 알고리즘 또는 다음과 같은 형태의 업데이트를 사용하는 뉴턴 방법을 사용하여 찾을 수 있다.

: \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{J}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}),

여기서 \mathcal{J}(\boldsymbol\beta^{(t)})는 관측 정보 행렬(헤세 행렬의 음수)이고, u(\boldsymbol\beta^{(t)})는 스코어 함수이다. 또는 피셔 스코어링 방법:

: \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{I}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}),

여기서 \mathcal{I}(\boldsymbol\beta^{(t)})는 피셔 정보 행렬이다. 정준 연결 함수를 사용하는 경우 동일하다.

6. 2. 베이즈 방법

일반적으로 사후 분포는 폐쇄 형식으로 찾을 수 없으므로, 대개 라플라스 근사나 깁스 샘플링과 같은 마르코프 연쇄 몬테카를로 방법을 사용하여 근사해야 한다.[1]

7. 확장 모형

일반화 선형 모형은 선형 회귀를 확장하여 하나 이상의 변수를 대상으로 일반화된 모형을 구축하는 것이다. 이 모형은 다양한 형태로 확장될 수 있다.

7. 1. 상관된 데이터 또는 군집 데이터

표준 일반화 선형 모형(GLM)은 관측치가 상관관계가 없다고 가정한다. 그러나 종단 연구 및 클러스터 설계와 같이 관측치 간 상관 관계가 존재하는 경우, 이를 허용하도록 GLM을 확장할 수 있다.

  • '''일반화 추정 방정식'''(GEE)은 상관 관계의 기원에 대한 명시적인 확률 모형 없이 관측치 간의 상관 관계를 허용한다. 따라서 명시적인 가능도가 없다.[6][7] 랜덤 효과와 그 분산이 주된 관심사가 아닐 때 적합하며, 상관 관계의 기원을 설명하지 않고도 상관 관계를 고려한다. GEE는 모집단 전체의 평균 반응을 추정하는 데 초점을 맞추며, 특정 개인에 대한 '''X''' 변수 변화의 영향을 예측하는 회귀 매개변수 추정에는 적합하지 않다. GEE는 일반적으로 Huber-White 표준 오차와 함께 사용된다.
  • '''일반화 선형 혼합 모형'''(GLMM)은 선형 예측 변수에 랜덤 효과를 포함하여 상관 관계의 기원을 설명하는 명시적인 확률 모형을 제공하는 GLM의 확장이다. 따라서 "개인별" 매개변수 추정치는 '''X''' 변수 변화가 특정 개인에게 미치는 영향을 추정하는 데 적합하다. GLMM은 다층 모형 및 혼합 모형이라고도 불린다. 일반적으로 GLMM을 맞추는 것은 GEE보다 계산적으로 더 복잡하고 어렵다.

7. 2. 일반화 가법 모형 (GAM)

일반화 가법 모형(GAM)은 선형 예측 변수 ''η''가 공변량 '''X'''에 대해 선형으로 제한되지 않고 ''xi''에 적용된 스무딩 함수의 합으로 표현되는 일반화 선형 모형(GLM)의 확장이다.

: \eta = \beta_0 + f_1(x_1) + f_2(x_2) + \cdots \,\!

스무딩 함수 ''fi''는 데이터에서 추정된다. 일반적으로 이에는 많은 수의 데이터 포인트가 필요하며 계산 집약적이다.

8. 응용 분야

일반화 선형 모형(GLM)은 선형 회귀를 확장하여 다양한 종류의 데이터를 다룰 수 있게 해준다.


  • 이항 자료 분석: 결과가 '예' 또는 '아니오'와 같이 두 가지로만 나타나는 데이터를 분석한다. 로지스틱 회귀는 오즈 (사건 발생 확률/사건 미발생 확률)에 로그를 취한 값을, 프로빗 회귀는 정규 분포누적 분포 함수의 역함수를 사용하여 확률을 예측한다.[4]
  • 계수형 자료 분석: 푸아송 회귀는 사건 발생 횟수와 같은 계수 데이터를 푸아송 분포를 사용하여 모델링한다. 일반적으로 로그 함수를 연결 함수로 사용한다.[1]

8. 1. 선형 회귀

선형 회귀는 일반화 선형 모형의 특수한 경우이며, 일반 선형 모형의 예시이기도 하다. 선형 회귀에서 최소 제곱 추정량의 사용은 가우스-마르코프 정리에 의해 정당화되는데, 이 정리는 오차항의 분포가 정규 분포라고 가정하지 않는다.

일반화 선형 모형의 관점에서 보면, 분포 함수가 일정한 분산을 갖는 정규 분포이고 연결 함수가 항등 함수(정준 연결)라고 가정하는 것이 유용하다. 이는 분산이 알려진 경우 정규 연결 함수이다. 이러한 가정 하에서, 최소 제곱 추정량은 최대 우도 매개변수 추정값으로 얻어진다.

정규 분포의 경우, 일반화 선형 모형은 최대 우도 추정값에 대한 닫힌 형식 표현식을 가지므로 편리하다. 대부분의 다른 GLM은 닫힌 형식 추정값이 없다.

기지값 \sigma^2을 사용하여 a(\theta)=\theta^2/2, \phi = \sigma^2, c(y,\,\phi) = -\left( y^2/\sigma^2 + \log{2\pi\sigma^2} \right)/2로 나타낼 때, f(y;\theta) = \frac{1}{\sqrt{2\pi} \sigma} \exp{\left(- \frac{(y-\theta)^2}{2\sigma^2} \right)}는 평균 \theta, 분산 \sigma^2정규 분포에 해당한다.

링크 함수로 g(\theta) = \theta를 취할 때, 이는 정규 선형 모형 (일반적인 선형 회귀)에 해당한다. 평균 \theta\mathbf{x}^T\,\boldsymbol{\beta}로 주어진다.

8. 2. 이항 자료 분석 (로지스틱 회귀, 프로빗 회귀)

일반 선형 모형에서 이항 자료는 결과가 두 가지(예/아니오)로만 나타나는 데이터를 의미한다. 이러한 자료는 베르누이 분포이항 분포를 따르며, 이를 분석하기 위해 로지스틱 회귀와 프로빗 회귀 같은 특별한 방법이 사용된다.

  • 로지스틱 회귀 (Logistic Regression): 오즈에 로그를 취한 값을 선형 모형으로 예측한다. 오즈는 특정 사건이 발생할 확률과 발생하지 않을 확률의 비율이다. 예를 들어, 온도 변화에 따라 해변 방문 확률을 예측할 때, 온도가 10도 변하면 해변 방문 오즈가 두 배 또는 절반으로 변한다고 모델링한다.

  • 프로빗 회귀 (Probit Regression): 정규 분포누적 분포 함수의 역함수를 사용하여 확률을 예측한다. 프로빗 모형은 깁스 샘플링과 같은 특정 계산 방법을 사용할 때 유리하다.


로지스틱 회귀와 프로빗 회귀는 모두 이항 자료 분석에 널리 사용되며, 분석 목적과 데이터 특성에 따라 적절한 방법을 선택한다. 매개변수 결정에는 뉴턴 방법을 사용한 최대 우도 추정 등이 사용된다.[4]

8. 2. 1. 순서형 자료 분석

반응 변수가 순서형 자료라면, 다음과 같은 형태의 모형 함수를 적합시킬 수 있다.

: g(\mu_m) = \eta_m = \beta_0 + X_1 \beta_1 + \cdots + X_p \beta_p + \gamma_2 + \cdots + \gamma_m = \eta_1 + \gamma_2 + \cdots + \gamma_m \text{ where } \mu_m = \operatorname{P}(Y \leq m). \,

''m'' > 2인 경우, 다른 연결 함수 ''g''는 비례 오즈 모형 또는 순서형 프로빗 모형으로 이어진다.

8. 2. 2. 명목형 자료 분석

만약 반응 변수가 명목 척도이거나 데이터가 순서 모형의 가정을 만족하지 않는다면, 다항 로짓 또는 다항 프로빗 모형을 적합시킬 수 있다.

8. 3. 계수형 자료 분석 (푸아송 회귀)

푸아송 회귀는 계수 데이터를 푸아송 분포를 사용하여 모델링하는 일반화 선형 모형의 한 예시이다. 연결 함수는 일반적으로 로그 함수를 사용하며, 이는 캐노니컬 링크이다.

분산 함수는 평균에 비례한다.

:\operatorname{var}(Y_i) = \tau\mu_i,\,

여기서 분산 모수 ''τ''는 일반적으로 1로 고정된다. 만약 분산 모수가 1이 아닌 경우, 결과 준우도 모형은 푸아송 과 과분산 또는 '준푸아송'으로 설명된다.[1]

참조

[1] 논문 Generalized Linear Models Blackwell Publishing
[2] 문서
[3] 논문 A conversation with John Nelder
[4] 웹사이트 Complementary Log-log Model http://www.stat.ualb[...]
[5] 웹사이트 Which Link Function — Logit, Probit, or Cloglog? https://bayesium.com[...] 2015-08-14
[6] 논문 Models for Longitudinal Data: A Generalized Estimating Equation Approach International Biometric Society
[7] 서적 Generalized Estimating Equations https://archive.org/[...] Chapman and Hall/CRC
[8] 논문 Generalized Linear Models Blackwell Publishing
[9] 서적 Multivariate Analysis https://archive.org/[...] Academic Press



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com